我们研究了从单个全景图像估算房间布局的问题。大多数前工程都有两个阶段:特征提取和参数模型配件。在这里,我们提出了一种端到端的方法,其直接从输入全景图像预测参数布局。它利用隐式编码过程将参数布局嵌入到潜像。然后学习从图像到此潜在空间的映射使端到端的房间布局估计成为可能。然而,尽管许多有趣的性质,但端到端的方法具有几个臭名昭着的缺点。广泛提出的批评是他们与数据集偏见令人困扰,并没有转移到陌生的域名。我们的研究回应了这种共同的信念。为此,我们建议使用语义边界预测映射作为中间域。它在四个基准(StructureD3D,Panocontext,S3DIS和Matterport3D)上带来了显着的性能提升,特别是在零拍摄传输设置中。代码,数据和模型将被释放。
translated by 谷歌翻译
我们说明了一种可以利用用于构建先验遵守身体定律的神经网络的方法。我们从简单的单层神经网络(NN)开始,但避免选择激活功能。在某些条件和无限宽度极限下,我们可以应用中央限制定理,NN输出变为高斯。然后,我们可以通过依靠高斯过程(GP)理论来调查和操纵极限网络。据观察,作用于GP的线性操作员再次产生GP。对于定义微分方程并描述物理定律的差分运算符也是如此。如果我们要求GP或等效地遵守物理定律,那么这将产生与GP的协方差函数或内核的方程式,其解决方案等效地限制了模型以遵守物理定律。然后,中央限制定理建议可以通过选择激活函数来构建NNS来遵守物理定律,从而使它们在无限宽度极限中匹配特定的内核。以这种方式构建的激活函数可以保证NN先验遵守物理学,直到非限制网络宽度的近似误差。讨论了均匀的1D-螺旋方程的简单示例,并将其与天真的内核和激活进行了比较。
translated by 谷歌翻译
网络物理系统(CPS)的复杂性日益增加,使工业自动化具有挑战性。需要处理大量传感器记录的数据,以充分执行诸如故障的诊断之类的任务。解决这种复杂性的一种有希望的方法是因果关系的概念。但是,大多数有关因果关系的研究都集中在推断未知系统部分之间的因果关系。工程以根本不同的方式使用因果关系:复杂的系统是通过将组件与已知可控行为相结合的。由于CP是通过第二种方法构建的,因此大多数基于数据的因果模型不适合工业自动化。为了弥合这一差距,提出了针对工业自动化各种应用程序领域的统一因果模型,这将允许更好地沟通和跨学科的更好的数据使用。最终的模型在数学上描述了CPS的行为,并且由于对应用领域的独特要求评估了该模型,因此证明统一的因果关系模型可以作为在工业自动化中应用新方法的基础,该方法侧重于机器学习。
translated by 谷歌翻译
对于使用高性能机器学习算法通常不透明的决策,人们越来越担心。用特定于领域的术语对推理过程的解释对于在医疗保健等风险敏感领域中采用至关重要。我们认为,机器学习算法应该可以通过设计来解释,并且表达这些解释的语言应与域和任务有关。因此,我们将模型的预测基于数据的用户定义和特定于任务的二进制函数,每个都对最终用户有明确的解释。然后,我们最大程度地减少了在任何给定输入上准确预测所需的预期查询数。由于解决方案通常是棘手的,因此在事先工作之后,我们根据信息增益顺序选择查询。但是,与以前的工作相反,我们不必假设查询在有条件地独立。取而代之的是,我们利用随机生成模型(VAE)和MCMC算法(未经调整的Langevin)来选择基于先前的查询 - 答案的输入的最有用的查询。这使得在线确定要解决预测歧义所需的任何深度的查询链。最后,关于视觉和NLP任务的实验证明了我们的方法的功效及其优越性比事后解释的优势。
translated by 谷歌翻译
我们呈现LSEG,这是一种用于语言驱动语义图像分割的新模型。 LSEG使用文本编码器来计算描述性输入标签(例如,“草”或“构建”)的嵌入式,以及基于变压器的图像编码器,该图像编码器计算输入图像的密度每个像素嵌入。图像编码器具有对比度目标,以将像素嵌入对准对应语义类的文本嵌入。文本嵌入式提供了一种灵活的标签表示,其中将语义相似的标签映射到嵌入空间中的类似区域(例如,“猫”和“毛茸茸”)。这允许LSEG概括到以前在测试时间的预先看不见的类别,而不会再培训或甚至需要单一的额外训练样本。我们展示了与现有的零点和少量拍摄语义分割方法相比,我们的方法实现了高竞争激烈的零射性能,甚至在提供固定标签集时符合传统分段算法的准确性。代码和演示可在https://github.com/isl-org/lang-seg获取。
translated by 谷歌翻译
空中图像为应对飓风等自然灾害提供了重要的情境意识。它们非常适合提供损坏估算和本地化的信息(Del);即,表征灾难后损坏的类型和空间程度。尽管最近进行了传感和无人空中系统技术的进步,但大部分灾后的空中图像仍然由手持式DSLR摄像机,从小,载人的固定翼飞机。但是,这些手持式摄像机缺乏IMU信息,并且通过运营商机会拍摄的图像。因此,来自此图像的DEL仍然是一个高度手动和耗时的过程。我们提出了一种方法来检测航空图像中的损坏,并在世界坐标中本地化,专注于检测和定位洪水。该方法是基于使用运动的结构通过投影转换将图像坐标与世界坐标联系起来,使用类激活映射来检测图像中损坏的程度,并将投射转换应用于本地化世界坐标损坏。我们评估了我们在2016年路易斯安那州洪水的事件后数据上的绩效,并发现我们的方法达到了88%的精确度。鉴于使用有限数据的这种高精度,我们认为这种方法目前是可行的,用于从手持空中图像进行灾难反应的快速和有效的德。
translated by 谷歌翻译
无放射治疗器官轮廓的深度学习模型是临床用途,但目前,预测轮廓的自动化质量评估(QA)有很多工具。使用贝叶斯模型及其相关的不确定性,可以自动化检测不准确预测的过程。我们使用定量测量 - 预期的校准误差(ECE)和基于定性的测量区域的精确度(R-AVU)图来调查两个贝叶斯模型进行自动轮廓众所周知,模型应该具有低欧洲欧洲经委会被认为是值得信赖的。然而,在QA语境中,模型也应该在不准确的区域中具有高不确定性,并且在准确的区域中的不确定性低。此类行为可以直接对专家用户的视觉关注潜在地不准确的地区,导致QA过程中的加速。使用R-AVU图表,我们定性地比较了不同模型的行为准确和不准确的地区。使用三种型号在Miccai2015头和颈部分割挑战和DeepMindtcia CT数据集上进行实验:丢弃骰子,辍学-CE(交叉熵)和Flipout-Ce。定量结果表明,丢弃骰子具有最高的ECE,而辍学-CE和FLIPOUT-CE具有最低的ECE。为了更好地了解辍学-CE和Flipout-CE之间的差异,我们使用R-AVU图表,显示Flipout-CE在不准确的地区具有比Dropout-Ce更好的不确定性覆盖率。定量和定性度量的这种组合探讨了一种新方法,有助于选择哪种模型可以在临床环境中作为QA工具部署。
translated by 谷歌翻译
We introduce dense vision transformers, an architecture that leverages vision transformers in place of convolutional networks as a backbone for dense prediction tasks. We assemble tokens from various stages of the vision transformer into image-like representations at various resolutions and progressively combine them into full-resolution predictions using a convolutional decoder. The transformer backbone processes representations at a constant and relatively high resolution and has a global receptive field at every stage. These properties allow the dense vision transformer to provide finer-grained and more globally coherent predictions when compared to fully-convolutional networks. Our experiments show that this architecture yields substantial improvements on dense prediction tasks, especially when a large amount of training data is available. For monocular depth estimation, we observe an improvement of up to 28% in relative performance when compared to a state-of-theart fully-convolutional network. When applied to semantic segmentation, dense vision transformers set a new state of the art on ADE20K with 49.02% mIoU. We further show that the architecture can be fine-tuned on smaller datasets such as NYUv2, KITTI, and Pascal Context where it also sets the new state of the art. Our models are available at https://github.com/intel-isl/DPT.
translated by 谷歌翻译
人工智能(AI)治理调节行使权威和控制AI的管理。它旨在通过有效利用数据并最大程度地减少与AI相关的成本和风险来利用AI。尽管AI治理和AI伦理等主题在理论,哲学,社会和监管层面上进行了详尽的讨论,但针对公司和公司的AI治理工作有限。这项工作将AI产品视为系统,在该系统中,通过机器学习(ML)模型(培训)数据传递关键功能。我们通过在AI和相关领域(例如ML)合成文献来得出一个概念框架。我们的框架将AI治理分解为数据的治理,(ML)模型和(AI)系统沿着四个维度。它与现有的IT和数据治理框架和实践有关。它可以由从业者和学者都采用。对于从业者来说,主要是研究论文的综合,但从业者的出版物和监管机构的出版物也为实施AI治理提供了宝贵的起点,而对于学者来说,该论文强调了许多AI治理领域,值得更多关注。
translated by 谷歌翻译
The success of monocular depth estimation relies on large and diverse training sets. Due to the challenges associated with acquiring dense ground-truth depth across different environments at scale, a number of datasets with distinct characteristics and biases have emerged. We develop tools that enable mixing multiple datasets during training, even if their annotations are incompatible.In particular, we propose a robust training objective that is invariant to changes in depth range and scale, advocate the use of principled multi-objective learning to combine data from different sources, and highlight the importance of pretraining encoders on auxiliary tasks. Armed with these tools, we experiment with five diverse training datasets, including a new, massive data source: 3D films. To demonstrate the generalization power of our approach we use zero-shot cross-dataset transfer, i.e. we evaluate on datasets that were not seen during training. The experiments confirm that mixing data from complementary sources greatly improves monocular depth estimation. Our approach clearly outperforms competing methods across diverse datasets, setting a new state of the art for monocular depth estimation.
translated by 谷歌翻译